[レポート] 夏のDatadogまつりMeetup に参加してきました #datadog #datadogjp
こんにちは 園部です。
今回は、8月27日に開催されました 夏のDatadogまつりMeetup への参加レポートとなります。 現地で聴きながら書いた内容となりますので、誤った理解や記載がある場合はご容赦ください(およびご連絡ください)。資料公開され次第確認を行う予定です。
イベント概要
今回の Meetup では2019年7月16~17日に New York 市で開催した Datadog のホストイベント「 DASH 」で発表した Datadog の新機能と Datadog のユーザ様の事例をご紹介します。
(引用: 募集サイト )
暑い夏をさらにアツく!Datadog新機能まとめてご紹介
- スピーカー: Datadog Sales Engineer 池山 さん
- 資料: 後日公開予定
概要
7月16日、17日ニューヨークでDatadog主催のカンファレンス DASH が開催されました。 ネットワークモニタリングやサーバーレス、Real User Monitoringをはじめ、ベータも含めて数多くの新機能が発表されました。 この夏をさらにアツくするDatadogの新機能の数々、ご紹介します!
(引用:募集サイト)
セッション内容
DASH とは?
- Datadog が主催する年次のグローバルカンファレンス
- 新機能やお客様事例などのトレンドを紹介
- DASH 2019 NYC
GA アナウンス
- Serverless Functions ( Cloud Function )
- AWS lambda 関数のメトリクスを CloudWatch 経由で取得、トレースデータを X-RAY から取得
- Python 、Node、Go の SDK であれば、カスタムメトリクス の取得も可能
- Lambda の依存関係を Trace Search と Service Map で可視化も可能
- 今後は、GCP や Azure のServerless Function の対応も進めていく予定
- Datadog for Serverless: End-to-end visibility for modern applications
- Synthetics と APM のシームレスな統合
- 1step 単位で Trace することが可能
- エラーを追跡する際に、シームレスに対応可能
- Synthetics APM(Document)
- Browser Logs
- JaveScript クライアントから Datadoge へログを送信
- エラーをトラッキングする機能
- Log Management での検索も可能
- Alert の対象としても利用可能
- EtoE テストをより把握可能
- Monitor JavaScript console logs and user activity with Datadog
Public Beta(申込み必要)
- Log Rehydration
- アーカイブされたログをオンデマンドで再度取り込むことが可能
- 取り込まれた分は課金されるが、再アーカイブはユーザー側でコントロール可能
- Beta リクエストページ
- アーカイブされたログをオンデマンドで再度取り込むことが可能
- Network Performance Monitoring
- 送信元と送信先のネットワーク状況を可視化
- タグでグルーピングして、サービスレベルで可視化することが可能
- k8s pod 間通信でも有用
- AZ 間での転送量などの把握も有用
- Netwrok Map も同時にリリース
- Introducing Datadog Network Performance Monitoring
- Beta リクエストページ
- SLO Reporting
- Synthetics などのSLOを可視化
- エラーバジェットの表示も可能
- Track the status of your SLOs with the new monitor uptime and SLO widget
- Beta リクエストページ
Private Beta(申込み必要)
- Metrics without Limits
- カスタムメトリクス(DogstatsD)は課金対象で、予想以上に取得してしまうケースがある
- カスタムメトリクスのなかで、タグでフィルタリングすることで対象をコントロールできる機能
- 本機能に合わせて、料金形態も検討中
- DogstatsD のディストリビューションカスタムメトリクスが対象
- Beta リクエストページ
- Tracing without Limits
- 全てのトレースを Live tral することが可能
- タグで保持す制御を UI で設定可能
- Beta リクエストページ
- APM Outliers ( Trace Outliers )
- 機械学習による異常検知
- トラフィックを自動的に分析し、根本原因を特定
- 異常が見られるグラフを自動生成
- Beta リクエストページ
- Metrics from Logs
- Logs から検索 >>> 集計条件を指定 >>> Metrics へ
- 1分単位で実行
- Beta リクエストページ
- Watchdog for Infrastructure metrics
- APM メトリクスに対する機械学習による異常検知
- APM だけでなく Infrastructure も対象となります
- Beta リクエストページ
- Metric Correlations
- 機械学習を活用し、異常が見られるメトリクスと同じ挙動しているメトリクスを探してくる(相関)
- MTTR の短縮に助力
- Beta リクエストページ
- Synthetics Private Locations
- 内部向けアプリケーションや、インターネットからの通信を許可していない環境などで活用
- Datadog Synthetics Agent を Docker で提供
- Beta リクエストページ
- RUM( Real User Monitoring ) Browser + Mobile
- よりユーザー体験を可視化
- データ(デバイスやOS、バージョン、地域)を把握
- Beta リクエストページ
- Beta リクエストページ
- Mobile App for Incident Response
- Datadog のモバイルアプリ
- Slack に通知される内容からダッシュボードへアクセス
- Beta リクエストページ
申し込みページ
Datadog コンソールへログインした上で、各機能ごとに申し込みが必要です。
(例: Datadog Mobile App Beta Request )
DASHや新機能に関する情報(英語)
- Dash 2019: Guide to Datadog’s newest announcements
- A look back at Dash 2019: Two days of talks, workshops, and community
- Datadog コンソール内リリースノート
株式会社ジェーシービー様事例 「Why Datadog?」
- スピーカー: 株式会社ジェーシービー 片岡 さん
- 資料: 後日公開予定
概要
JCBではモニタリングツールとしてDatadogを採用。なぜDatadogを必要とし、なぜ採用したのか。 金融業界の特有の事情も踏まえた実情をお話させていただきます。
(引用:募集サイト)
セッション内容
ハイブリッドクラウド
- PCI TSP(Token Service Provider)
- Apple Pay や Google Pay などで利用される Digital Token を発行・管理するために必要となるセキュリティ・フレームワーク
- PCI DSS とは類似するが別仕様(視点)
- 現在の Public Cloud では全ての要件を満たすのは対応困難
- オンプレとクラウドを使い分けていく必要がある
- 高度化なハイブリッドクラウドの課題
- クラウド人材の育成・調達
- システム保守・運用が複雑
Why Datadog?
- オンプレとクラウド環境を統合された1つ環境とみなし、システム運用・利用すること
- KSF( Key Success Factors )
- Monitoring too
- API( Application Programming Interface )
- Container + Container Orchestration
- オンプレとクラウドで、扱うツールが異なり、体制を分けざる得なくなっている
- 既存の統合監視製品で検証したがクラウドでの活用は成功しなかった
- CW はフィットしなかった
- 周囲の評判がよかった
- Good point
- オンプレミス(オンプレミスでも利用可能)
- 表現力(カスタマイズ性が高く見た目が美しい)
- API 連携( Slack など各種ソリューションと API 連携が可能 )
- カタログ( AWS サービスや各種 MW をカタログとして標準装備)
- IBM MQ にも対応
- コンテナ(コンテナにも対応済み)
- 利用してみた感想
- タグ付けは重要で、様々なカットで情報を俯瞰して確認できる。
- 全体を俯瞰して状況確認が可能
- AWS サービスへの適合度が高い
- Demo
- Dashoboard / Overview で全体を俯瞰する( 死活監視 >>> システム負荷 )
- 異常があればドリルダウンして調査する
- Next Action
- 過去2年分情報が確認できるため、性能試験などの環境で利用が便利
- まだ AWS でのみ活用しているのでオンプレミスにも展開したい
- 社内標準にしたい
- Log の送信先が米リージョンのみなため、日本リージョンも可能としてほしい
LT1: Datadog カスタムチェック導入
- スピーカー: 株式会社NTTデータ 宇都宮 さん
- 資料:
セッション内容
Datadog 導入システムのご紹介
- iQuattro という自社構築サービスで Datadog 利用
- 複数アプリケーションを Datadog でモニタリング
- 推しポイント
- Log Patterns
- Integration の豊富さ
- Dashboard の見やすさ
- カスタムチェック
- Agent に付随する形で、Python 実装で、独自システムのメトリクスを送信できる
- カスタムチェックの基本
- Agent バージョンでフォーマットが異なる
- 最短実行間隔を指定でき、デフォルトでは 15秒間隔
- 実装で詰まったこと
- HMAC 認証をカスタムチェックで実装
- カスタムチェックでは NG だが、サービスは正常稼動
- Agent からはコマンド実行が正常なので、OK と見える
- dd-agent で実行されているが、必要なファイルへのアクセス権限が不足していた
- デバック手法がわからなかった
- サポートに問い合わせて、デバック方法をサポートしてもらった( セルフログデバック )
LT2: micrometerでカスタムメトリクスを送信する
- スピーカー: 株式会社サイバーエージェント 黒崎 さん
- 資料: micrometerでDatadogにカスタムメトリクスを送信する
セッション内容
自己紹介
- 先日 AWS 障害時に書いたブログがバズった
カスタムメトリクスの活用方法
- 広告の配信状況(ビジネス KPI )をカスタムメトリクスで可視化
今までのカスタムメトリクスの送信方法
- fluent-plugin-dogstatsd を利用
- 既存で fluentd を利用していたため採用
- https://github.com/ryotarai/fluent-plugin-dogstatsd
- dogstatsd の欠点
- アプリケーションとセットで fluentd や datadog agent が必要
- ECS などの場合は datadog-agent 等がサイドカーコンテナとして必要
- lambda はカスタムメトリクスが送信できない
- アプリケーション から Datadog API を直接叩く
- インフラ的にはシンプルになるが、メトリクスの計測が発生するたびに通信が発生
- アプリケーション内でメトリクスのバッファリングをよしなにやってほしい
micrometer によるカスタムメトリクスの送信
- micrometer
- Pivotal が後悔しているアプリケーションメトリクスの収集ライブラリ
- https://micrometer.io/
- 統一されたインターフェースの上で、各種サービスへメトリクスを転送できる
- Datadog、Dynatrace、Elasic、NewRelic、Prometheus、Ganglia、Influx など
- メトリクスのバッファリングも可能
- Scale で少しラップして、CAでは実装
- 困っていること
- registry を stop 直前にバッファリングされているメトリクスがタイミングによって、flush されず、アプリケーションのシャットダウン時にメトリクスが欠損する可能性がある
- Datadog のカスタムメトリクスの使用量をカスタムメトリクスで投げる
- https://github.com/phucnh/check-datadog-custom-metrics-usage
所感
数日前に、Datadog は上場しましたね。これは、益々進化されるのではないかと期待しております!!
Happy Monitoring!!